DPO(Direct Preference Optimization):LLM的直接偏好优化

在学习llama模型的训练过程中发现强化学习除了PPO(proximal policy optimization)还有一个DPO可选项(direct preference optimization),在我的上一篇笔记里有提到两本入门课程(Easy RL和动手学强化学习)里并没有提到这个算法,应该是最近新出现的,查了一下该算法是在23年提出的。 在学习DPO之前,我们先回顾一下RLHF。 ...